这项工作表征了深度对线性回归优化景观的影响,表明尽管具有非凸性,但更深的模型具有更理想的优化景观。我们考虑了一个健壮且过度参数化的设置,其中测量的子集严重损坏了噪声,真正的线性模型将通过$ n $ layer-layer线性神经网络捕获。在负面方面,我们表明这个问题\ textit {do}具有良性景观:给定任何$ n \ geq 1 $,具有恒定概率,存在与既不是本地也不是全局最小值的地面真理的解决方案。但是,从积极的一面来看,我们证明,对于具有$ n \ geq 2 $的任何$ n $ layer模型,一种简单的次级方法变得忽略了这种``有问题的''解决方案;取而代之的是,它收敛于平衡的解决方案,该解决方案不仅接近地面真理,而且享有平坦的当地景观,从而避免了“早期停止”的需求。最后,我们从经验上验证了更深层模型的理想优化格局扩展到其他强大的学习任务,包括具有$ \ ell_1 $ -loss的深层矩阵恢复和深度relu网络。
translated by 谷歌翻译
在本文中,我们研究了推断空间变化的高斯马尔可夫随机场(SV-GMRF)的问题,其中的目标是学习代表基因之间网络关系的稀疏,特定于上下文的GMRF网络。 SV-GMRF的一个重要应用是推断来自空间分辨转录组学数据集的基因调节网络。当前有关SV-GMRF推断的工作基于正则最大似然估计(MLE),并且由于其高度非线性的性质而受到压倒性的计算成本。为了减轻这一挑战,我们提出了一个简单有效的优化问题,代替了配备强大的统计和计算保证的MLE。我们提出的优化问题在实践中非常有效:我们可以在不到2分钟的时间内解决具有超过200万变量的SV-GMRF的实例。我们将开发的框架应用于研究胶质母细胞瘤中的基因调节网络如何在组织内部空间重新连接,并确定转录因子Hes4和核糖体蛋白的显着活性是表征肿瘤血管周期壁iche中基因表达网络的特征抗性干细胞。
translated by 谷歌翻译
我们考虑使用梯度下降来最大程度地减少$ f(x)= \ phi(xx^{t})$在$ n \ times r $因件矩阵$ x $上,其中$ \ phi是一种基础平稳凸成本函数定义了$ n \ times n $矩阵。虽然只能在合理的时间内发现只有二阶固定点$ x $,但如果$ x $的排名不足,则其排名不足证明其是全球最佳的。这种认证全球最优性的方式必然需要当前迭代$ x $的搜索等级$ r $,以相对于级别$ r^{\ star} $过度参数化。不幸的是,过度参数显着减慢了梯度下降的收敛性,从$ r = r = r = r^{\ star} $的线性速率到$ r> r> r> r> r^{\ star} $,即使$ \ phi $是$ \ phi $强烈凸。在本文中,我们提出了一项廉价的预处理,该预处理恢复了过度参数化的情况下梯度下降回到线性的收敛速率,同时也使在全局最小化器$ x^{\ star} $中可能不良条件变得不可知。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
种植植被是降低沉积物转移率的实用解决方案之一。植被覆盖的增加可降低环境污染和沉积物的运输速率(STR)。由于沉积物和植被相互作用复杂,因此预测沉积物的运输速率具有挑战性。这项研究旨在使用新的和优化的数据处理方法(GMDH)的新版本(GMDH)预测植被覆盖的沉积物传输速率。此外,这项研究介绍了一种用于预测沉积物传输速率的新集合模型。模型输入包括波高,波速,密度覆盖,波力,D50,植被盖的高度和盖茎直径。独立的GMDH模型和优化的GMDH模型,包括GMDH Honey Badger算法(HBA)GMDH大鼠群群算法(RSOA)VGMDH正弦余弦算法(SCA)和GMDH颗粒swarm swarm优化率(GMDH-PSO),用于预测沉积率(GMDH-PSO) 。作为下一步,使用独立的GMDH的输出来构建集合模型。合奏模型的MAE为0.145 m3/s,而GMDH-HBA,GMDH-RSOA,GMDH-SCA,GMDH-PSOA和GMDH的MAE在测试水平为0.176 M3/s,0.312 M3/s,0.367/s,0.367 M3/s,0.498 m3/s和0.612 m3/s。集合模型的Nash Sutcliffe系数(NSE),GMDH-HBA,GMDH-RSOA,GMDH-SCA,GMDH-PSOA和GHMDH分别为0.95 0.93、0.89、0.89、0.86、0.86、0.82和0.76。此外,这项研究表明,植被覆盖的沉积物运输速率降低了90%。结果表明,合奏和GMDH-HBA模型可以准确预测沉积物的传输速率。根据这项研究的结果,可以使用IMM和GMDH-HBA监测沉积物的传输速率。这些结果对于管理和规划大盆地的水资源很有用。
translated by 谷歌翻译
基于变压器的神经网络已在许多机器学习领域(包括自然语言处理和计算机视觉)中实现了最新的任务性能。为了进一步提高其准确性,最近的工作探索了动态行为的整合到这些网络中的形式(MOE)层的形式。在本文中,我们探讨了MOE层的引入以优化不同的指标:推理潜伏期。我们介绍了一个名为Planer的新型系统,该系统采用了现有的基于变压器的网络和一个用户定义的延迟目标,并生成了原始网络的优化,稀疏激活的版本,该版本试图满足潜伏期目标,同时保持基线准确性。我们使用变压器-XL网络对两个现实世界的语言建模任务进行评估,并在ISO准确性上实现超过2倍的推理潜伏期降低。
translated by 谷歌翻译
为了计划安全的演习并采取远见卓识,自动驾驶汽车必须能够准确预测不确定的未来。在自主驾驶的背景下,深层神经网络已成功地应用于从数据中学习人类驾驶行为的预测模型。但是,这些预测遭受了级联错误的影响,导致长时间的不准确性。此外,学识渊博的模型是黑匣子,因此通常不清楚它们如何得出预测。相比之下,由人类专家告知的基于规则的模型在其预测中保持长期连贯性,并且是可解释的。但是,这样的模型通常缺乏捕获复杂的现实世界动态所需的足够表现力。在这项工作中,我们开始通过将智能驱动程序模型(一种流行的手工制作的驱动程序模型)嵌入深度神经网络来缩小这一差距。我们的模型的透明度可以提供可观的优势,例如在调试模型并更容易解释其预测时。我们在模拟合并方案中评估我们的方法,表明它产生了可端到端训练的强大模型,并无需为模型的预测准确性提供更大的透明度。
translated by 谷歌翻译
从语言学习者到残疾人,文本可读性评估对不同目标人士有广泛的应用。网络上文本内容生产的快速速度使得如果没有机器学习和自然语言处理技术的好处,就无法测量文本复杂性。尽管各种研究涉及近年来英语文本的可读性评估,但仍有改进其他语言的模型的空间。在本文中,我们提出了一种基于转移学习的德语文本评估文本复杂性评估的新模型。我们的结果表明,该模型比从输入文本中提取的语言特征优于更多经典的解决方案。最佳模型是基于BERT预训练的语言模型,达到了均方根误差(RMSE)为0.483。
translated by 谷歌翻译
自我监督的方法已通过端到端监督学习的图像分类显着缩小了差距。但是,在人类动作视频的情况下,外观和运动都是变化的重要因素,因此该差距仍然很大。这样做的关键原因之一是,采样对类似的视频剪辑,这是许多自我监督的对比学习方法所需的步骤,目前是保守的,以避免误报。一个典型的假设是,类似剪辑仅在单个视频中暂时关闭,从而导致运动相似性的示例不足。为了减轻这种情况,我们提出了SLIC,这是一种基于聚类的自我监督的对比度学习方法,用于人类动作视频。我们的关键贡献是,我们通过使用迭代聚类来分组类似的视频实例来改善传统的视频内积极采样。这使我们的方法能够利用集群分配中的伪标签来取样更艰难的阳性和负面因素。在UCF101上,SLIC的表现优于最先进的视频检索基线 +15.4%,而直接转移到HMDB51时,SLIC检索基线的率高为15.4%, +5.7%。通过用于动作分类的端到端登录,SLIC在UCF101上获得了83.2%的TOP-1准确性(+0.8%),而HMDB51(+1.6%)上的fric fineTuns in top-1 finetuning。在动力学预处理后,SLIC还与最先进的行动分类竞争。
translated by 谷歌翻译
仇恨语音在线的检测已成为一项重要的任务,因为伤害,淫秽和侮辱性内容等冒犯性语言可能会危害边缘化的人或团体。本文介绍了Indo-European语言中的仇恨语音和冒犯内容识别的共同任务任务1A和1B的任务1A和1B的实验和结果。在整个竞争中,对各种子特派团评估了不同的自然语言处理模型的成功。我们通过竞争对手基于单词和字符级别的复发神经网络测试了不同的模型,并通过竞争对手基于提供的数据集进行了学习方法。在已经用于实验的测试模型中,基于转移学习的模型在两个子任务中获得了最佳结果。
translated by 谷歌翻译